标准差 - 解释

作者:Ruben Geert van den Berg,来自 Statistics A-Z

标准差(Standard Deviation)是一个数值,它告诉我们一组数字的分散程度。标准差的范围从 0 到无穷大。标准差为 0 表示这组数字完全相等 - 它们根本没有分散。

标准差 - 示例

五位应聘者参加了一项智商测试,作为工作申请的一部分。他们在三个智商组成部分上的得分如下所示。

标准差 - 原始数据点截图

现在,让我们仔细看看这三个智商组成部分的得分。请注意,我们 5 位应聘者的平均分均为 100 分。但是,iq_verbal 的得分比 iq_math 的得分更接近。此外,iq_spatial 的得分比前两个组成部分的得分更分散。分数分散的具体程度可以用一个数字来表示。这个数字就是标准差。

标准差 - 结果

在现实生活中,我们显然不会通过目视检查原始分数来了解它们的分散程度。相反,我们会让一些软件来为我们计算它们(稍后会详细介绍)。下表显示了智商数据的标准差和其他一些统计数据。请注意,标准差证实了我们在原始数据中看到的模式。

描述性统计表中的标准差

标准差和直方图

好的,让我们让事情变得更直观一些。下图显示了智商分数的标准差和直方图。请注意,每个条形代表 1 位应聘者在 1 个智商组成部分上的得分。我们再次看到,标准差表明了分数的分散程度。

标准差 - 直方图 1

标准差 - 更多直方图

当我们像在上图中那样可视化少量观察的数据时,我们很容易看到清晰的画面。对于一个更实际的例子,我们将在下面展示 1,000 个观察值的直方图。重要的是,这些直方图具有相同的比例;对于每个直方图,x 轴上的 1 厘米对应大约 40 个“智商组成部分点”。

标准差 - 直方图 2

请注意直方图如何允许粗略估计标准差。“更宽”的直方图表示更大的标准差;得分(x 轴)更分散。由于所有直方图都具有相同的表面积(对应于 1,000 个观察值),因此更高的标准差也与“更低”的直方图相关联。

标准差 - 总体公式

那么你的软件是如何计算标准差的呢?好吧,基本公式

\[\sigma = \sqrt{\frac{\sum(X - \mu)^2}{N}}\]

其中

  • \(X\) 表示每个单独的数字;
  • \(\) 表示所有数字的平均值,并且
  • \(\) 表示一个总和。

用文字表达,标准差是每个单独数字与这些数字的平均值之间的平均平方差的平方根。

重要的是,此公式假设您的数据包含感兴趣的整个总体(因此称为“总体公式”)。如果您的数据仅包含目标总体的样本,请参见下文。

总体公式 - 软件

您可以通过在单元格中键入 =STDEVP(...)Google SheetsOpenOfficeExcel 中使用此公式。指定您想要计算标准差的数字,在括号之间,然后按 Enter 键。下图说明了这个想法。

GoogleSheets 中的标准差

奇怪的是,总体标准差公式似乎在 SPSS 中不存在。

标准差 - 样本公式

现在来说点具有挑战性的:如果您的数据(近似)是来自某个(更大的)总体的简单随机样本,那么之前的公式将系统性地低估该总体中的标准差。通过使用以下公式可以获得总体标准差的无偏估计量:

\[S_x = \sqrt{\frac{\sum(X - \overline{X})^2}{N -1}}\]

关于计算,与第一个公式的最大区别在于我们将除以 \(n -1\) 而不是 \(n\)。除以一个较小的数字会导致(稍微)更大的结果。这正好弥补了前面提到的低估。但是,对于较大的样本量,这两个公式具有几乎相同的结果。 在 GoogleSheets、Open Office 和 MS Excel 中,STDEV 函数使用第二个公式。它也是 SPSS 中实现的(唯一)标准差公式。

标准差和方差

另一个表达一组数字分散程度的数字是方差(Variance)。方差是标准差的平方。这意味着,与标准差类似,方差也有总体公式和样本公式。 原则上,两种不同的统计量基本上表达了数字集合的相同属性,这很奇怪。为什么我们不直接丢弃方差而支持标准差(或反之)?基本的答案是,在某些情况下,标准差具有更理想的属性,而在另一些情况下,方差具有更理想的属性。